وقتي جستجويي در يک موتور جستجوگر انجام و نتايج جستجو ارايه مي شود، كاربران در واقع نتیجه كار بخش ھاي متفاوت موتور جستجوگر را مي بینند. موتور جستجوگر قبلا "پايگاه داده اش را آماده كرده است و اين گونه نیست كه درست در ھمان لحظه جستجو، تمام وب را بگردد. بسیاري از خود مي پرسند كه چگونه امكان دارد گوگل در كمتر از يك ثانیه تمام سايت ھای وب را بگردد و میلیون ھا صفحه را در نتايج جستجوی خود ارايه كند؟

نه گوگل و نه ھیچ موتور جستجوگر ديگري توانايي انجام اين كار را ندارند .ھمه آنھا در زمان پاسخ گويي به كاربران، تنھا در پايگاه داده اي كه در اختیار دارند به جستجو مي پردازند و نه در وب !

موتور جستجوگر به كمك بخش ھای متفاوت خود، اطلاعات مورد نیاز را قبلا" جمع آوري، تجزيه و تحلیل مي كند و آنرا در پايگاه داده اش ذخیره مي نمايد و به ھنگام جستجوی کاربر تنھا در ھمین پايگاه داده می گردد .

بخش ھاي مجزاي يك موتور جستجوگر عبارتند از:

Spider يا عنکبوت

Crawlerيا خزنده

Indexer يا بايگانی کننده     

Database يا پايگاه داده   

Ranker يا سیستم رتبه بندی 

 

Spider  یا عنکبوت :

نرم افزاري است كه كار جمع آوري اطلاعات مورد نیاز يك موتور جستجوگر را بر عھده دارد. ، (Robot) اسپايدر يا روبوت اسپايدر به صفحات مختلف سر مي زند، محتواي آنھا را مي خواند، اطلاعات مورد نیاز را جمع آوري مي كند و آنرا در اختیار ساير بخش ھاي موتور جستجوگر قرار مي دھد .

كار يك اسپايدر، بسیار شبیه كار كاربران وب است. ھمانطور كه كاربران، صفحات مختلف را بازديد مي كنند، اسپايدر صفحات را مي بیند اما كاربران نتیجه HTML ھم درست اين كار را انجام مي دھد با اين تفاوت كه اسپايدر كدھاي حاصل از كنار ھم قرار گرفتن اين كدھا را. اما يک اسپايدر آنرا چگونه می بیند؟

صفحات را HTML براي اين كه شما ھم بتوانید دنیاي وب را از ديدگاه يك اسپايدر ببینید، كافي است كه كدھاي مشاھده کنید.

آيا اين دنیاي متني برای شما جذاب است؟

اسپايدر، به ھنگام مشاھده صفحات، از خود بر روي سرورھا رد پا برجای مي گذارد. شما اگر اجازه دسترسي به آمار ديد و بازديدھاي صورت گرفته از يک سايت و اتفاقات انجام شده در آنرا داشته باشید، مي توانید مشخص كنید كه اسپايدر كدام يک از موتورھاي جستجوگر صفحات سايت را مورد بازديد قرار داده اند.

انجام می شود تحلیل آمار ھمین ديد و بازديدھا می باشد. SEM يکی از فعالیتھاي اصلی که در

اسپايدرھا كاربردھاي ديگري نیز دارند، به عنوان مثال عده اي از آنھا به سايت ھاي مختلف مراجعه مي كنند و فقط مي گردند. (Email) به بررسي فعال بودن لینك ھاي آنھا مي پردازند و يا به دنبال آدرس پست الكترونیكي

 

Crawler  یا خزنده:

كراولر، نرم افزارياست كه به عنوان يك فرمانده براي اسپايدر عمل مي كند. آن مشخص مي كند که اسپايدر كدام صفحات را مورد بازديد قرار دھد. در واقع کراولر تصمیم مي گیرد كه كدام يك از لینك ھای صفحه ای كه اسپايدر در حال حاضر در آن قرار دارد، دنبال شود. ممكن است ھمه آنھا را دنبال كند، بعضي ھا را دنبال كند و يا ھیچ كدام را دنبال نكند.

کراولر، ممكن است قبلا "برنامه ريزي شده باشد که آدرس ھای خاصی را طبق برنامه، در اختیار اسپايدر قرار دھد تا از آنھا ديدن کند. دنبال كردن لینك ھای يک صفحه به اين بستگي دارد كه موتور جستجوگر چه حجمي از اطلاعات يک سايت را مي تواند در پايگاه داده اش ذخیره كند و ھمچنین ممكن است اجازه دسترسي به بعضي از صفحات به موتورھاي جستجوگر داده نشده باشد .

شما به عنوان دارنده سايت، ھمان طور كه دوست داريد موتورھاي جستجوگر اطلاعات سايت شما را با خود ببرند، مي توانید آنھا را از بعضي از صفحات سايت تان دور كنید و اجازه دسترسي به محتواي آن صفحات را به آنھا ندھید.

تنظیم میزان دسترسي موتورھاي جستجوگر به محتوای يک سايت توسط پروتكل Robots

انجام مي شود . به عمل کراولر ، خزش(Crawling) مي گويند.

 

Indexer   یا بايگانی كننده  :

تمام اطلاعات جمع آورش شده توسط اسپايدر در اختیار ايندکسر قرار مي گیرد. در اين بخش اطلاعات ارسالي مورد

تجزيه و تحلیل قرار مي گیرند و به بخش ھاي متفاوتي تقسیم مي شوند. تجزيه و تحلیل بدين معني است كه

مشخص می شود اطلاعات از كدام صفحه ارسال شده است، چه حجمي دارد، كلمات موجود در آن كدام است،

کلمات چندبار تكرار شده است، كلمات در كجاي صفحه قرار دارند و . ...

در حقیقت ايندکسر، صفحه را به پارامترھای آن خرد می کند و تمام اين پارامترھا را به يک مقیاس عددی تبديل می

کند تا سیستم رتبه بندي بتواند پارامترھای صفحات مختلف را با ھم مقايسه کند.

در زمان تجزيه و تحلیل اطلاعات، ايندکسر براي كاھش حجم داده ھا از بعضي كلمات كه بسیار رايج ھستند صرفنظر مي کند. كلماتي نظیر is ،www ،the ،an ، a و ... از اين گونه كلمات ھستند

 

 DataBase یا  پايگاه داده :

تمام داده ھاي تجزيه و تحلیل شده در ايندکسر، به پايگاه داده ارسال مي گردد. در اين بخش داده ھا گروه بندي، كدگذاري و ذخیره مي شود. ھمچنین داده ھا قبل از آنكه ذخیره شوند، طبق تکنیکھای خاصی فشرده مي شوند تا حجم كمي از پايگاه داده را اشغال كنند .

يك موتور جستجوگر بايد پايگاده داده عظیمي داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دھد و البته اطلاعات قديمي را ھم به روز رسانی نمايد .بزرگي و به روز بودن پايگاه داده يك موتور جستجوگر براي آن امتیاز محسوب مي گردد . يكي از تفاوتھاي اصلي موتورھاي جستجوگر در حجم پايگاه داده آنھا و ھمچنین روش ذخیره سازي داده ھا در پايگاه داده است .

 

Ranker  یا سیستم رتبه بندی:

بعد از آنكه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گويي به سوالات كاربران است. كاربران چند كلمه را در جعبه جستجوي( (Search Box آن وارد مي كنند و سپس با فشردن Enter  منتظر پاسخ مي مانند . برای پاسخگويي به درخواست کاربر، ابتدا تمام صفحات موجود در پايگاه داده كه به موضوع جستجو شده، مرتبط ھستند، مشخص مي شوند. پس از آن سیستم رتبه بندي وارد عمل شده، آنھا را از بیشترين ارتباط تا كمترين ارتباط مرتب مي كند و به عنوان نتايج جستجو به كاربر نمايش می دھد.

حتي اگر موتور جستجوگر بھترين و كامل ترين پايگاه داده را داشته باشد اما نتواند پاسخ ھاي مرتبطي را ارايه كند، يك موتور جستجوگر ضعیف خواھد بود. در حقیقت سیستم رتبه بندي قلب تپنده يك موتور جستجوگر است و تفاوت اصلي موتورھاي جستجوگر در اين بخش قرار دارد.

 

 

سیستم رتبه بندي براي پاسخ گويي به سوالات كاربران، پارامترھاي بسیاري را در نظر مي گیرد تا بتواند بھترين پاسخ ھا را در اختیار آنھا قرار دهد. حرفه اي ھاي دنیاي SEM به طور خلاصه از آن به  Algo (الگوريتم) ياد مي كنند.

الگوريتم، مجموعه اي از دستورالعمل ھا است كه موتور جستجوگر با اعمال آنھا بر پارامترھاي صفحات موجود درپايگاه داده اش، تصمیم مي گیرد که صفحات مرتبط را چگونه در نتايج جستجو مرتب كند. در حال حاضر قدرتمندترين سیستم رتبه بندي را گوگل در اختیار دارد.

 

مي توان با ادغام کردن اسپايدر با کراولر و ھمچنین ايندکسر با پايگاه داده، موتور جستجوگر را شامل سه بخش زير دانست که اين گونه تقسیم بندی ھم درست می باشد:

کراولر

بايگانی

سیستم رتبه بندی